Scene Graph Generation (SGG) serves a comprehensive representation of the images for human understanding as well as visual understanding tasks. Due to the long tail bias problem of the object and predicate labels in the available annotated data, the scene graph generated from current methodologies can be biased toward common, non-informative relationship labels. Relationship can sometimes be non-mutually exclusive, which can be described from multiple perspectives like geometrical relationships or semantic relationships, making it even more challenging to predict the most suitable relationship label. In this work, we proposed the SG-Shuffle pipeline for scene graph generation with 3 components: 1) Parallel Transformer Encoder, which learns to predict object relationships in a more exclusive manner by grouping relationship labels into groups of similar purpose; 2) Shuffle Transformer, which learns to select the final relationship labels from the category-specific feature generated in the previous step; and 3) Weighted CE loss, used to alleviate the training bias caused by the imbalanced dataset.
translated by 谷歌翻译
基于硬件的加速度是促进许多计算密集型数学操作的广泛尝试。本文提出了一个基于FPGA的体系结构来加速卷积操作 - 在许多卷积神经网络模型中出现的复杂且昂贵的计算步骤。我们将设计定为标准卷积操作,打算以边缘-AI解决方案启动产品。该项目的目的是产生一个可以一次处理卷积层的FPGA IP核心。系统开发人员可以使用Verilog HDL作为体系结构的主要设计语言来部署IP核心。实验结果表明,我们在简单的边缘计算FPGA板上合成的单个计算核心可以提供0.224 GOPS。当董事会充分利用时,可以实现4.48 GOP。
translated by 谷歌翻译
Adversarial machine learning has been both a major concern and a hot topic recently, especially with the ubiquitous use of deep neural networks in the current landscape. Adversarial attacks and defenses are usually likened to a cat-and-mouse game in which defenders and attackers evolve over the time. On one hand, the goal is to develop strong and robust deep networks that are resistant to malicious actors. On the other hand, in order to achieve that, we need to devise even stronger adversarial attacks to challenge these defense models. Most of existing attacks employs a single $\ell_p$ distance (commonly, $p\in\{1,2,\infty\}$) to define the concept of closeness and performs steepest gradient ascent w.r.t. this $p$-norm to update all pixels in an adversarial example in the same way. These $\ell_p$ attacks each has its own pros and cons; and there is no single attack that can successfully break through defense models that are robust against multiple $\ell_p$ norms simultaneously. Motivated by these observations, we come up with a natural approach: combining various $\ell_p$ gradient projections on a pixel level to achieve a joint adversarial perturbation. Specifically, we learn how to perturb each pixel to maximize the attack performance, while maintaining the overall visual imperceptibility of adversarial examples. Finally, through various experiments with standardized benchmarks, we show that our method outperforms most current strong attacks across state-of-the-art defense mechanisms, while retaining its ability to remain clean visually.
translated by 谷歌翻译
无线传感器网络由随机分布的传感器节点组成,用于监视目标或感兴趣的区域。由于每个传感器的电池容量有限,因此维持连续监视的网络是一个挑战。无线电源传输技术正在作为可靠的解决方案,用于通过部署移动充电器(MC)为传感器充电传感器。但是,由于网络中出现不确定性,为MC设计最佳的充电路径是具有挑战性的。由于网络拓扑的不可预测的变化,例如节点故障,传感器的能耗率可能会显着波动。这些变化也导致每个传感器的重要性变化,在现有作品中通常被认为是相同的。我们在本文中提出了一种使用深度强化学习(DRL)方法提出新颖的自适应充电方案,以解决这些挑战。具体来说,我们赋予MC采用充电策略,该策略确定了下一个在网络当前状态上充电条件的传感器。然后,我们使用深层神经网络来参数这项收费策略,该策略将通过强化学习技术进行培训。我们的模型可以适应网络拓扑的自发变化。经验结果表明,所提出的算法的表现优于现有的按需算法的大幅度边缘。
translated by 谷歌翻译
自Bert(Devlin等,2018)以来,学习上下文化的单词嵌入一直是NLP中的事实上的标准。然而,学习上下文化短语嵌入的进展受到缺乏人类通知的语句基准基准的阻碍。为了填补这一空白,我们提出了PIC- 〜28K名词短语的数据集伴随着它们的上下文Wikipedia页面,以及一套三个任务,这些任务增加了评估短语嵌入质量的难度。我们发现,在我们的数据集中进行的培训提高了排名模型的准确性,并明显地将问题答案(QA)模型推向了近人类的准确性,而在语义搜索上,鉴于询问短语和段落,在语义搜索上是95%的精确匹配(EM)。有趣的是,我们发现这种令人印象深刻的性能的证据是因为质量检查模型学会了更好地捕获短语的共同含义,而不管其实际背景如何。也就是说,在我们的短语中歧义歧义(PSD)任务上,SOTA模型的精度大大下降(60%EM),在两个不同情况下未能区分相同短语的两种不同感觉。在我们的3任任务基准测试中的进一步结果表明,学习上下文化的短语嵌入仍然是一个有趣的开放挑战。
translated by 谷歌翻译
尽管在自动语音识别(ASR)中最近的表现方法增加了,但这种方法并不能确保其输出的适当套管和标点符号。这个问题对自然语言处理(NLP)算法和人类的理解都有重大影响。对于原始文本输入的预处理管道,必须进行资本化和标点符号恢复。对于越南人等低资源语言,此任务的公共数据集很少。在本文中,我们为越南人的资本化和标点符号恢复贡献了一个公共数据集;并提出了两个名为intercappunc的任务的联合模型。越南数据集的实验结果显示了我们联合模型的有效性与单个模型和先前的联合学习模型相比。我们在https://github.com/anhtunguyen98/jointcappund上公开发布数据集和模型的实现
translated by 谷歌翻译
算法追索权旨在推荐提供丰富的反馈,以推翻不利的机器学习决策。我们在本文中介绍了贝叶斯追索权,这是一种模型不足的追索权,可最大程度地减少后验概率比值比。此外,我们介绍了其最小的稳健对应物,目的是对抗机器学习模型参数的未来变化。强大的对应物明确考虑了使用最佳传输(Wasserstein)距离规定的高斯混合物中数据的扰动。我们表明,可以将最终的最差目标函数分解为求解一系列二维优化子问题,因此,最小值追索问题发现问题可用于梯度下降算法。与现有的生成健壮的回流的方法相反,可靠的贝叶斯追索不需要线性近似步骤。数值实验证明了我们提出的稳健贝叶斯追索权面临模型转移的有效性。我们的代码可在https://github.com/vinairesearch/robust-bayesian-recourse上找到。
translated by 谷歌翻译
对于移动机器人来说,自主行驶安全性的能力,尤其是在动态环境中的能力至关重要。近年来,DRL方法在避免动态障碍物方面表现出了出色的表现。但是,这些基于学习的方法通常是在专门设计的仿真环境中开发的,并且很难针对传统的计划方法进行测试。此外,这些方法将这些方法的集成和部署到真正的机器人平台中尚未完全解决。在本文中,我们介绍了Arena-Bench,这是一套基准套件,可在3D环境中在不同机器人平台上进行训练,测试和评估导航计划者。它提供了设计和生成高度动态评估世界,场景和自动导航任务的工具,并已完全集成到机器人操作系统中。为了展示我们套件的功能,我们在平台上培训了DRL代理,并将其与各种相关指标上的各种现有基于模型和学习的导航方法进行了比较。最后,我们将方法部署到了真实的机器人方面,并证明了结果的可重复性。该代码可在github.com/ignc-research/arena-bench上公开获得。
translated by 谷歌翻译
神经崩溃的概念是指在各种规范分类问题中经验观察到的几种新兴现象。在训练深度神经网络的终端阶段,同一类的所有示例的特征嵌入往往会崩溃为单一表示,而不同类别的特征往往会尽可能分开。通常通过简化的模型(称为无约束的特征表示)来研究神经崩溃,其中假定模型具有“无限表达性”,并且可以将每个数据点映射到任何任意表示。在这项工作中,我们提出了不受约束的功能表示的更现实的变体,该变体考虑到了网络的有限表达性。经验证据表明,嘈杂数据点的记忆导致神经崩溃的降解(扩张)。使用记忆 - 稀释(M-D)现象的模型,我们展示了一种机制,通过该机制,不同的损失导致嘈杂数据上受过训练的网络的不同性能。我们的证据揭示了为什么标签平滑性(经验观察到产生正则化效果的跨凝性的修改)导致分类任务的概括改善的原因。
translated by 谷歌翻译
在过去的几十年中,由于其在广泛的应用中,现场文本认可从学术界和实际用户获得了全世界的关注。尽管在光学字符识别方面取得了成就,但由于诸如扭曲或不规则布局等固有问题,现场文本识别仍然具有挑战性。大多数现有方法主要利用基于复发或卷积的神经网络。然而,虽然经常性的神经网络(RNN)通常由于顺序计算而遭受慢的训练速度,并且遇到消失的梯度或瓶颈,但CNN在复杂性和性能之间衡量折衷。在本文中,我们介绍了SAFL,一种基于自我关注的神经网络模型,具有场景文本识别的焦点损失,克服现有方法的限制。使用焦损而不是负值对数似然有助于模型更多地关注低频样本训练。此外,为应对扭曲和不规则文本,我们在传递到识别网络之前,我们利用空间变换(STN)来纠正文本。我们执行实验以比较拟议模型的性能与七个基准。数值结果表明,我们的模型实现了最佳性能。
translated by 谷歌翻译